带宽运营,皆为错峰
引言
本文是对《云平台的成本优化-提升资源利用率》的硬核实践。
有个传说,古罗马两匹马屁股的间距,决定了马车轴距、铁路宽度、隧道宽度,最终决定了陆基运载火箭的喷口直径。
对于带宽产品的资源运营,也有个类似的根源,那就是带宽以峰值为计费基准。
无论读者的角色是云厂商/IDC/CDN还是大型用户,无论产品是BGP、单线、CDN还是边缘计算,只要我们在带宽类产品上消费额过了千万,我们就需要关注带宽运营和产品设计的根源是错峰。
1. 带宽三惊
惊吓惊喜和惊讶
1. 惊吓:运营商千万别降价
每个云厂商都梦想着自己拿到便宜带宽——这里的主语是“自己”而不是“便宜”。如果运营商将带宽价格普调性降低,那会是一场横扫整个云行业的灾难。其他大营收的云产品也别笑,硬件和电费降价,你们也一样尴尬。2. 惊喜:带宽生意要大小搭配
大部分toB产品都可以只做大客户,但带宽类产品最好是大小搭配。大客户让云厂商有做带宽生意的体量、也能腾挪出海量流动资金,但小客户错开了日峰。3. 惊讶:成本真的估不精细
带宽不是资源,带宽本质上是运营商做的一层规则限制。
运营商的根本计费规则就是“按月峰值计费”,即按照每月最大使用的那个水位线计费,在此基础上涌现出多种变体:
无保底峰值计费,最简单的用多少量给多少钱,可以演化成无保底流量计费。
有保底峰值计费,要收个最低月租费,比如保底1G带宽就是实际用300M也是收1G的钱。
95峰值计费,5%的最高用量被掐尖抹掉,避免偶发高峰造成大账单。
保底后突发流量价格变高,这是供应商鼓励你多交计划内月租,少搞突然袭击。
保底后突发流量价格变低,这是供应商鼓励你资源用的越多越好,最好每根线都用到满载。
固定带宽计费,客户掏的钱都是保底值,但过保底0.01%就会被限流。因为打点统计的粒度太粗,肯定会漏过真实带宽最高峰,而限流丢包时所有数据包等比例随机丢弃,所以大家只敢用到固定带宽的50%-85%。
共享带宽计费,大家肯定以为这种方式早被淘汰了,但是过去租U位共享100M和现在买云主机共享5M带宽有区别吗?
除了计费规则之外,带宽成本还有到特定区域比例限速、跨国跨区域合并保底、楼内线成本、跨运营商冗余方案等等一大堆问题和解决方法。这些复杂的规则,让掌握带宽计费规则成为高智商专业性工作,留给了云厂商、大型互联网厂商的采购、产品、运营、运维极大的难题,也留下了极大的操作空间。
运营商的费用结算是按照月峰进行的,如果某天某线的月峰突发很高,这个月其他时间的日常错峰就没有节省成本的意义了。
对于用量突增导致的月峰,因为有用户买单所以皆大欢喜;
对于短期DDOS攻击导致的月峰,运气好能找供应商撒娇抹一下账单;
如果A线路故障导致B线路突发峰值,A线路的赔偿款可填不平B线路的突发账单。
月峰在发生前很难压住别冒尖,但在冒尖之后又缺乏好办法规避浪费。我们很难做到因为某线路出现了月峰冒尖,接下来就刻意多用此线路。如果强行往月峰发生线缆上导流量,会面临着三个问题:
首先,要确认这个计费月还有几天空闲;
然后,我们要小心该线路日峰爆仓出故障;
最根本的问题是:其他被抽掉流量的线缆也是保底加月峰付费。
月峰冒尖和浪费的根本原因是:
需求侧不可控只能被动响应;
可调度的对象只有几个运营商的网口;
技术调度方法又非常笨拙缓慢。
3. 上行带宽的商业化运营商售出的IDC带宽是上下行对称,上下行中按用量最高的取值。但实操的过程中,IDC上行带宽基本就是赠送的,用量最大的肯定是下行带宽。CDN带宽上下行不对称,但上行带宽也一直够用。这几年直播火爆,因为直播业务只能回源无法缓存,CDN上行带宽终于用起来了;随着家用IOT场景的日渐普及,曾经闲置的IDC上行带宽逐渐紧俏起来。各个云平台公开的云主机裸金属,都很精明的写出是买下行带宽赠送上行带宽。随着5G类应用的日渐深入,这个赠送的带宽早晚也要变成收费,届时上下行错峰复用会成为带宽产品的新利润增长点。
4. 数据和产品带宽运营的展望
带宽运营的现状是纠结和浪费,但随着技术进步和行业变化,我们能看到带宽运营在逐渐变得确定和清晰。
2.线路分组混用互备运营商之间的互联互通能力在向集中化、简单化去演进;国内有信号,欧美已经成为事实,多个IPtransit之间的互备互通机制已经很成熟。我们可以将线路按照运营商进行互备分组,也可以将线路按照延迟等质量系数分类,这些分类至少能解决保底和灾备问题,也有望减少月峰值突发。
3. 精细化监控和敏捷决策
传统带宽监控的粒度太粗,也只用于触发报警和手工决策。带宽监控的正道是准实时监控,有了准实时数据就能有更精细的流控机制,再加上AI技术做敏捷判断和大数据技术做汇总统计,人类调配带宽终会变成自动调配带宽。
4. 从需求侧做新产品我说的新产品包括网络产品的自我优化,也包括应用产品的见缝插针。
同样是为解决日峰值中提到“如何停掉廉价带宽”的问题,可以将流控和QoS做到了IP层,也可以用源IP和端口去标识出“它就是可暂停的廉价带宽”,还要求上层应用天然是高容错可暂停。同样是为了解决链路稳定性问题,可以是专线+冗余+BGP等IP层技术,也可以设计一套传输协议,还可以客户端默认双路推流,还可以在编解码技术上搞容错。
要做出上述新产品,必须说明旧产品线的现状数据,新技术有哪些突破,资源池有哪些临界值。
>> 5. 结束语
带宽运营并不是一个轻松的话题,毫厘间的差错就是真金白银的损失,每一个需求方都在同时索要低价格和高价值。
但正如上一篇文章《云平台的成本优化》中的结束语: